谷歌最新AI模型TryOnDiffusion,网上购物也可“一键试衣”
作者|袁博
来源|AI先锋官
近日,谷歌联合华盛顿大学推出一款AI试衣模型TryOnDiffusion。在如今各种各样的换装AI中,TryOnDiffusion究竟是否能更胜一筹呢?小编进行了实测。
首先,目前这类换装AI普遍存在一个难题:在“试衣”过程中,既体现出服装的变形又保留服装细节,从而适应不同的姿势和身材同时让人没有违和感。
以前的AI都无法同时做到这两点,要么只能保留服装细节,无法处理姿势和身材的变化,要么就是可以更换姿势,但会缺失服装细节。
然而,TryOnDiffusion提出了一种基于扩散的框架,把两个Parallel-Unet(简称“UNet”)统一了起来。TryOnDiffusion能够在单个网络中保留服装细节,并且还能对姿势和身材进行匹配。
UNet的核心是使用交叉注意机制来让服饰变形。此外,研发团队还将衣物扭曲和人物融合成为一个任务,而不是两个独立的任务。
接下来,就让我们一起来看看TryOnDiffusion的“试衣”效果。
你只要给它一张自己的全身照和服装模特的照片,TryOnDiffusion就会生成你穿上这件衣服之后的效果了。
比如:
可以看到,衣服在人物上的变形极其自然,并且衣服的细节也还原得非常到位。
谷歌为了使Virtual Try-On功能尽可能提供真实的效果,并且真的能帮助用户挑选衣服,利用了谷歌的购物图对TryOnDiffusion进行了大量的训练。
谷歌使用了多对图像训练TryOnDiffusion,每对图像由两种不同姿势的穿着衣服的模特图组成。
比如,模型将学习把侧身姿势的此服装形状与面朝前姿势的模特图相匹配,直到它可以从各个角度可以生成模特穿着该服装的逼真图像。
为了追求更好的效果,谷歌使用数百万不同服装和人物的随机图像多次重复了这个过程。
不过TryOnDiffusion也还存在一些缺陷。比如:
谷歌还没有对全身试穿效果进行实验,研究仅侧重于上半身的服装;
训练和测试数据集通常都会具有干净统一的背景,因此无法确定该方法在更复杂的背景下的表现如何;
不能保证服装在模特身上是否真的合身,只关注试穿的视觉效果等等。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾